English

中文知识门户技术

2000-08-16 来源:光明日报 IBM中国研究中心 潘岳 我有话说

从YAHOO等WWW搜索引擎出现开始,门户开始凸显出自己在互联网时代的重要性。门户的价值在于它将原本分散、杂乱的信息加以组织,方便用户以其熟知的方式获取相关信息。

门户技术的核心是索引和检索技术。早期门户所采用的技术都旨在快速、全面地检索互联网信息。然而随着网页数量以指数增长,人们很快发现问题不在于门户所返回结果的数量多少,而在于返回的结果是否真正与检索的目的相关。所以新出现的门户技术主要侧重于以下两方面:对所组织的信息进行深度加工,以提取其中关键部分而排除噪音;为用户提供更加自然的信息获取方式。

IBM中国研究中心近年来致力于将自然语言处理引入到门户技术中,以进一步将门户技术向智能化、人性化方向推进。

中文语言搜索

CLS(中文语言搜索)将语言分析和理解集成于全文检索中,在创建索引的过程中引入了段落分析、切词、人名识别、数字和日期识别、过滤小品词等多项中文处理技术,并在索引中记录关键词的位置等丰富的信息。

分类搜索

目前,一般门户站点只对网站首页和自有网页进行人工分类,而对自动收集的网页和每日新闻,由于人工分类的成本太高,因而不分类,或者只进行粗略的分类。使用自动分类使门户站点完全负担得起对网页搜索的结果进行分类显示,以及制造出大批新闻专题类别对每日发生的事件进行追踪报道。

自然语言查询和自然语言对话

自然语言查询技术是以自然语言的句子来指定查询要求的技术。IBM中国研究中心的自然语言查询技术既支持关键词检索,又支持分类检索。对于关键词检索,自然语言查询技术从句子中自动抽出关键词和其他特征。对于分类检索,自然语言查询技术需要分类树及相应领域的知识作为背景,输入的句子被映射到分类树的某个节点以进行指定范围内的检索,此时还可以和关键词检索结合使用。以下是一个找餐馆的例子:

用户:我想找个地方吃饭。

网站:您对什么风味的餐厅感兴趣?(列出52个餐厅)

用户:有没有四川风味的饭馆?

网站:请告诉我北京的哪个区是您想去吃喝的地方?(列出32个四川餐厅)

用户:海淀区中关村。

网站:您需要何种氛围和环境?(列出19个海淀区中关村的结果)

用户:高雅点的。

网站:您想消费多少钱?(列出8个高雅餐厅的结果)

用户:100元吧。

网站:我们发现了您需要的信息!(列出最后2个结果)

自然语言对话技术的应用包括网站目录的导游、业务流程查询、FAQ的导引等。

动态摘要生成

动态摘要生成技术为一篇或多篇文章自动生成摘要和关键词列表,用户也可以指定某一主题并要求系统针对该主题生成摘要和关键词列表。IBM中国研究中心在多篇文章处理和主题摘要方面具有领先地位。自动摘要技术的应用包括显示检索结果,以及快速浏览某一文档集合等。

跨语言检索

跨语言检索是一种有趣的应用,它允许用户使用中文在YAHOO!等著名的英文搜索引擎上进行搜索,同时返回的结果由IBM的英-汉机器翻译技术翻译成中文进行浏览。

门户技术目前仍处于快速发展时期,不断涌现的新技术和新应用不断扩展着人们的想象空间。门户技术的应用不仅限于门户网站,在企业、校园的内部网上,甚至在个人电脑的用户界面上,都可能发现它的踪迹。

手机光明网

光明网版权所有

光明日报社概况 | 关于光明网 | 报网动态 | 联系我们 | 法律声明 | 光明网邮箱 | 网站地图

光明网版权所有